Data Filtering Techniques এবং তার প্রয়োগ

Computer Programming - অক (Awk) AWK এ Data Filtering এবং Sorting (Data Filtering and Sorting in AWK) |
191
191

Data Filtering Techniques এবং তার প্রয়োগ

Data Filtering হল ডেটা প্রক্রিয়াকরণের একটি গুরুত্বপূর্ণ প্রক্রিয়া, যার মাধ্যমে বড় ডেটাসেট থেকে নির্দিষ্ট প্যাটার্ন বা শর্ত অনুযায়ী ডেটা বের করা হয়। AWK, Python, এবং Shell স্ক্রিপ্টের মতো টুল এবং প্রোগ্রামিং ভাষাগুলিতে ডেটা ফিল্টারিং প্রক্রিয়াটি সহজে করা যায়। এখানে AWK-এর মাধ্যমে Data Filtering-এর কিছু গুরুত্বপূর্ণ টেকনিক এবং তার প্রয়োগ নিয়ে আলোচনা করা হলো।


1. শর্ত ব্যবহার করে ডেটা ফিল্টারিং

AWK-তে ডেটা ফিল্টারিং সাধারণত শর্ত (condition) ব্যবহার করে করা হয়। AWK প্রতিটি লাইনের ডেটা পড়ে এবং যদি শর্ত সত্য হয়, তাহলে নির্দিষ্ট কার্যক্রম (action) কার্যকর হয়।

উদাহরণ:

awk '$3 > 50 { print $0 }' data.txt

এই কমান্ডটি data.txt ফাইলের তৃতীয় ফিল্ডের মান 50 এর বেশি হলে পুরো লাইন প্রিন্ট করবে।


2. নির্দিষ্ট শব্দ বা প্যাটার্ন দিয়ে ফিল্টারিং

AWK-তে নির্দিষ্ট শব্দ বা প্যাটার্নের সাথে মিলে যাওয়া লাইন ফিল্টার করার জন্য নিয়মিত এক্সপ্রেশন ব্যবহার করা যায়।

উদাহরণ:

awk '/error/ { print $0 }' logfile.txt

এই কমান্ডটি logfile.txt ফাইল থেকে error শব্দটি থাকা সব লাইন প্রিন্ট করবে।


3. ফিল্ডের উপর ভিত্তি করে ফিল্টারিং

AWK ব্যবহার করে নির্দিষ্ট ফিল্ডের মানের ভিত্তিতে ডেটা ফিল্টার করা যায়। $ চিহ্ন ব্যবহার করে ফিল্ড নির্বাচন করা হয়।

উদাহরণ:

awk '$1 == "Alice" { print $2, $3 }' data.txt

এই কমান্ডটি data.txt ফাইল থেকে প্রথম ফিল্ডে "Alice" থাকা লাইনগুলির দ্বিতীয় এবং তৃতীয় ফিল্ড প্রিন্ট করবে।


4. লজিক্যাল অপারেটর দিয়ে শর্ত মিলানো

AWK-তে লজিক্যাল অপারেটর (&&, ||, !) ব্যবহার করে একাধিক শর্ত একসাথে মিলিয়ে ডেটা ফিল্টার করা যায়।

উদাহরণ:

awk '$2 > 20 && $3 < 100 { print $1, $2, $3 }' data.txt

এই কমান্ডটি data.txt ফাইল থেকে সেই লাইনগুলো প্রিন্ট করবে যেগুলির দ্বিতীয় ফিল্ডের মান 20 এর বেশি এবং তৃতীয় ফিল্ডের মান 100 এর কম।


5. BEGIN এবং END ব্লক ব্যবহার করে প্রক্রিয়াকরণ

AWK-তে BEGIN এবং END ব্লক ব্যবহার করে ডেটা প্রক্রিয়াকরণের আগে এবং পরে কার্যক্রম পরিচালনা করা যায়।

উদাহরণ:

awk 'BEGIN { print "Processing Data..." }
$2 > 50 { count++ }
END { print "Total number of records with second field > 50:", count }' data.txt

এই স্ক্রিপ্টটি data.txt ফাইলের দ্বিতীয় ফিল্ডের মান 50 এর বেশি হলে সেগুলোর সংখ্যা গণনা করবে এবং শেষে আউটপুট প্রিন্ট করবে।


6. নির্দিষ্ট ফিল্ডের মিল খুঁজে বের করা

AWK-এর ~ অপারেটর ব্যবহার করে ফিল্ডের মধ্যে নিয়মিত এক্সপ্রেশন মিল খুঁজে বের করা যায়।

উদাহরণ:

awk '$1 ~ /^[A-Z]/ { print $0 }' data.txt

এই কমান্ডটি data.txt ফাইল থেকে প্রথম ফিল্ডে বড় হাতের অক্ষর দিয়ে শুরু হওয়া লাইনগুলো প্রিন্ট করবে।


Data Filtering-এর অন্যান্য টেকনিক

  • ফিল্টার করা ডেটা সংরক্ষণ করা:

    awk '$3 > 100 { print $0 }' data.txt > filtered_data.txt

    এই কমান্ডটি ফিল্টার করা ডেটা filtered_data.txt ফাইলে সংরক্ষণ করবে।

  • গণনা এবং গড় বের করা:

    awk '{ sum += $2; count++ } END { print "Average:", sum / count }' data.txt

    এই স্ক্রিপ্টটি data.txt ফাইলের দ্বিতীয় ফিল্ডের গড় নির্ণয় করবে।


সারসংক্ষেপ

Data Filtering একটি গুরুত্বপূর্ণ প্রক্রিয়া, যা বড় আকারের ডেটাসেট থেকে নির্দিষ্ট ডেটা বের করতে সহায়ক। AWK-এর মাধ্যমে শর্ত, নিয়মিত এক্সপ্রেশন এবং লজিক্যাল অপারেটর ব্যবহার করে সহজেই ডেটা ফিল্টার করা যায়। Data Filtering টেকনিক ব্যবহার করে ডেটা বিশ্লেষণ এবং প্রক্রিয়াকরণ আরও কার্যকর এবং সঠিক করা সম্ভব।

common.content_added_by
টপ রেটেড অ্যাপ

স্যাট অ্যাকাডেমী অ্যাপ

আমাদের অল-ইন-ওয়ান মোবাইল অ্যাপের মাধ্যমে সীমাহীন শেখার সুযোগ উপভোগ করুন।

ভিডিও
লাইভ ক্লাস
এক্সাম
ডাউনলোড করুন
Promotion